随着Papyan等人最近对“神经崩溃(NC)”现象的观察,已经采取了各种努力来对其进行建模和分析。神经崩溃描述,在深层分类器网络中,与训练数据相关的最终隐藏层的类特征倾向于崩溃到各自的类功能均值。因此,将最后一层分类器的行为简化为最近级中心决策规则的行为。在这项工作中,我们分析了有助于从头开始对这种现象进行建模的原理,并展示他们如何建立对试图解释NC的最近提出的模型的共同理解。我们希望我们的分析对建模NC和有助于与神经网络的概括能力建立联系的多方面观点。最后,我们通过讨论进一步研究的途径并提出潜在的研究问题来得出结论。
translated by 谷歌翻译
强化学习(RL)是一种机器学习范式,自主代理人通过与基础环境进行互动来学会做出最佳决策顺序。 RL引导的工作流在解开电子设计自动化问题中所证明的诺言鼓励硬件安全研究人员利用自动RL代理来解决特定领域的问题。从硬件安全性的角度来看,这种自主代理人可以在未知的对抗环境中产生最佳动作。另一方面,综合电路供应链的持续全球化迫使芯片制造成为离岸,不信任的实体,从而增加了对硬件安全性的担忧。此外,未知的对抗环境和增加的设计复杂性使后卫在检测攻击者(又称硬件木马)进行的微妙修改方面具有挑战性。在此简介中,我们概述了RL代理在检测硬件Trojans时的开发,这是最具挑战性的硬件安全问题之一。此外,我们概述了潜在的机会,并提出了应用RL解决硬件安全问题的挑战。
translated by 谷歌翻译
在综合电路制造过程中插入的隐形硬件木马(HTS)可以绕过关键基础架构的安全性。尽管研究人员提出了许多检测HTS的技术,但存在一些局限性,包括:(i)成功率低,(ii)高算法复杂性,以及(iii)大量的测试模式。此外,先前检测技术最相关的缺点源于不正确的评估方法,即,他们假设对手会随机插入HTS。这种不适当的对抗性假设使检测技术能够声称高HT检测准确性,从而导致“错误的安全感”。不幸的是,据我们所知,尽管关于检测在制造过程中插入的HTS的研究多了十年,但仍未进行对HT检测技术进行系统评估的协调努力。在本文中,我们扮演着现实的对手的角色,并通过使用加固学习(RL)开发自动化,可扩展和实用的攻击框架,质疑HT检测技术的功效。损耗逃避了两个HT检测类别的八种检测技术,展示了其不可知论行为。与随机插入的HTS相比,消耗量达到$ 47 \ times $ $ $ 47 \ times $ and $ 211 \ times $的平均攻击成功率。我们通过评估从广泛使用的学术套房到较大的设计(例如开源MIPS和MOR1KX处理器)到AES和AE AE和GPS模块等较大的设计,从而证明了损耗的逃避能力。此外,我们通过两个案例研究(特权升级和杀死开关)对MOR1KX处理器展示了损耗生成的HTS的影响。我们设想我们的工作以及发布的HT基准和模型,促进了更好的HT检测技术的发展。
translated by 谷歌翻译
在集成电路中插入硬件木马(HTS)是一个有害威胁。由于在罕见触发条件下激活HTS,因此使用随机逻辑模拟检测它们是不可行的。在这项工作中,我们设计了一个加固学习(RL)代理,该学习代理绕过指数搜索空间并返回最小的模式集,最有可能检测到HTS。各种基准测试的实验结果证明了我们的RL代理的功效和可扩展性,与国家相比,在维持或改善覆盖范围($ 95.75 \%$)的同时,所需的测试模式数量显着降低($ 169 \ times $)($ 169 \ times $)($ 169 \ times $)($ 169 \ times $)($ 95.75 \%$)。 - 艺术技术。
translated by 谷歌翻译
视频检索随着视觉模型的发展取得了巨大进展。但是,进一步改进这些模型需要其他标记的数据,这是一项巨大的手动努力。在本文中,我们提出了一个框架MKTVR,该框架利用了从多语言模型的知识转移来提高视频检索的性能。我们首先使用最先进的机器翻译模型来构建伪真实的多语言视频文本对。然后,我们使用这些数据来学习视频文本表示,其中英语和非英语文本查询在基于预审前的多语言模型的常见嵌入空间中表示。我们在四个英语视频检索数据集上评估了我们提出的方法,例如MSRVTT,MSVD,DIDEMO和CHARADES。实验结果表明,我们的方法在所有数据集上实现了最先进的结果,超过了先前的模型。最后,我们还在涵盖六种语言的多语言视频回程数据集上评估了我们的模型,并表明我们的模型在零拍设置中优于先前的多语言视频检索模型。
translated by 谷歌翻译
近年来,具有两个较高架构的视觉语言(VL)模型主导了视觉表示的学习。当前的VL模型要么使用轻型Uni-Modal编码器,并在交叉模式编码器中同时提取,对齐和融合这两种模态,或者将最后一层的Uni-Modal-Modal特征直接馈入顶部的交叉模式编码器,而忽略了语义深度单模式编码器中不同级别的信息。两种方法都可能限制视觉表示学习和限制模型性能。在本文中,我们介绍了多个桥梁层,该层在Uni-Modal编码器的顶层和跨模式编码器的每一层之间建立了连接。这可以在不同语义级别的视觉和文本表示之间进行全面的自下而上相互作用,从而导致更有效的跨模式对齐和融合。我们提出的桥梁可以预先训练,仅需$ 4 $ m的图像,可以在各种下游视觉语言任务上实现最先进的性能。在VQAV2 Test-STD集合中,Bridge-Tower的准确性为$ 78.73 \%$,与以前的最先进的仪表型号相同的the Art仪表均优于先前的最先进的仪表\%$ $,并且几乎没有其他参数,并且几乎没有其他参数和其他参数计算成本。值得注意的是,当进一步扩展模型时,桥梁可以达到81.15美元\%$的准确性,超过了在较大的数据集中预先训练的模型。代码可在https://github.com/microsoft/bridgetower上找到。
translated by 谷歌翻译
基于变压器的体系结构已在各种视觉域(最著名的图像和视频)中变得更具竞争力。虽然先前的工作已经孤立地研究了这些模式,但拥有一个共同的体系结构表明,人们可以训练单个统一模型以多种视觉方式。事先尝试进行统一建模通常使用针对视觉任务量身定制的体系结构,或与单个模态模型相比获得较差的性能。在这项工作中,我们表明可以使用蒙版的自动编码来在图像和视频上训练简单的视觉变压器,而无需任何标记的数据。该单个模型学习了与图像和视频基准上的单模式表示相当或更好的视觉表示,同时使用了更简单的体系结构。特别是,我们的单一预算模型可以进行审核,以在ImageNet上获得86.5%的速度,而在挑战性的事物V2视频基准测试中,可以实现75.3%的范围。此外,可以通过丢弃90%的图像和95%的视频补丁来学习该模型,从而实现非常快速的训练。
translated by 谷歌翻译
基于变压器的模型的突破不仅彻底改变了NLP字段,而且彻底改变了视觉和多模式系统。但是,尽管可视化和可解释性工具已用于NLP模型,但视觉和多模式变压器的内部机制在很大程度上仍然不透明。随着这些变压器的成功,了解它们的内部运作越来越重要,因为揭开这些黑色盒子将导致更有能力和值得信赖的模型。为了为这一任务做出贡献,我们提出了VL-Interpret,它提供了新颖的交互式可视化,以解释多模式变压器中的关注和隐藏表示。 VL解释是一种任务不可知论和集成的工具,(1)在视觉和语言组件的所有层中跟踪注意力头的各种统计数据,(2)通过易于阅读的热图和跨模式和模式的关注可视化。 (3)绘制视觉和语言令牌穿过变压器层时的隐藏表示。在本文中,我们通过分析KD-VLP(一种基于端到端的视觉视觉方式多模式变压器的模型)在视觉常识推理(VCR)和两个,两个,两个,两个,两个,两个,两个,两个,两个,两个,两个接线型VLP(VCR)的任务,两个,两个,两个,两个,两个,两个,两个,两个,两个,两个,两个vlp,两个vlp,两个vlp,两个vlp,两个,我们在本文中证明了VL解干的功能。视觉问题回答基准。此外,我们还提出了一些有关通过我们的工具学到的多模式变压器行为的有趣发现。
translated by 谷歌翻译
我们介绍了一个开源深学习库的Pytorchvideo,为各种视频理解任务提供了丰富的模块化,高效,可重复的组件,包括分类,检测,自我监督学习和低级处理。该库涵盖了一系列视频理解工具,包括复制最先进的性能的多模式数据加载,转换和模型。Pytorchvideo进一步支持硬件加速,从而实现移动设备上的实时推断。图书馆基于Pytorch,可以由任何培训框架使用;例如,pytorchlightning,pyslowfast或优雅的愿景。pytorchvideo在https://pytorchvideo.org/提供
translated by 谷歌翻译
自我监督的视觉和语言预处理(VLP)旨在从大规模的图像文本数据中学习可转移的多模式表示形式,并在填充后在广泛的视觉范围内实现强大的表现。以前的主流VLP方法通常采用依靠外部对象检测器来编码多模式变压器框架中的图像的两步策略,该框架遭受了限制性对象概念空间,有限的图像上下文和效率低下的计算。在本文中,我们提出了一个对象感知的端到端VLP框架,该框架将来自CNN的图像网格特征直接馈送到变压器中,并共同学习多模式表示。更重要的是,我们建议执行对象知识蒸馏,以促进在不同语义级别的学习跨模式对齐。为了实现这一目标,我们通过将对象特征及其来自外部检测器的语义标签作为监督来设计两个新颖的借口任务:1。)对象引导的蒙版视觉建模任务的重点是在多模式变压器中强制执行对象感知的表示的学习; 2.)短语区域对准任务旨在通过利用语言空间中名词短语和对象标签之间的相似性来改善跨模式对齐。对各种视觉语言任务进行的广泛实验证明了我们提出的框架的功效,并且我们在现有的预科策略中实现了竞争性或优越的表现。
translated by 谷歌翻译